❔Есть ли встроенные модели регрессии, которые напрямую работают с пропущенными данными
Да, некоторые модели на основе деревьев решений (включая реализации градиентного бустинга и случайных лесов) могут обрабатывать пропущенные данные внутренне. Например, определённые вариации деревьев решений могут использовать суррогатные разбиения или разделения по умолчанию для объектов с отсутствующими значениями признаков.
Это значит, что модель может выбрать альтернативный путь по дереву, если основной признак отсутствует.
Такие механизмы встроены, например, в: ➡️ XGBoost (можно задать missing), ➡️ LightGBM (имеет встроенную поддержку NaN), ➡️ CatBoost (автоматически обрабатывает пропуски).
Однако, несмотря на удобство, следует внимательно оценивать качество модели, особенно если: ➡️ пропусков много, ➡️ отсутствие значений связано с целевой переменной или другими признаками.
В таких случаях простая внутренняя обработка может быть недостаточной, и потребуется анализ природы пропусков или применение более обоснованных методов (импутация, маскирование и др.).
❔Есть ли встроенные модели регрессии, которые напрямую работают с пропущенными данными
Да, некоторые модели на основе деревьев решений (включая реализации градиентного бустинга и случайных лесов) могут обрабатывать пропущенные данные внутренне. Например, определённые вариации деревьев решений могут использовать суррогатные разбиения или разделения по умолчанию для объектов с отсутствующими значениями признаков.
Это значит, что модель может выбрать альтернативный путь по дереву, если основной признак отсутствует.
Такие механизмы встроены, например, в: ➡️ XGBoost (можно задать missing), ➡️ LightGBM (имеет встроенную поддержку NaN), ➡️ CatBoost (автоматически обрабатывает пропуски).
Однако, несмотря на удобство, следует внимательно оценивать качество модели, особенно если: ➡️ пропусков много, ➡️ отсутствие значений связано с целевой переменной или другими признаками.
В таких случаях простая внутренняя обработка может быть недостаточной, и потребуется анализ природы пропусков или применение более обоснованных методов (импутация, маскирование и др.).
The messaging service and social-media platform owes creditors roughly $700 million by the end of April, according to people briefed on the company’s plans and loan documents viewed by The Wall Street Journal. At the same time, Telegram Group Inc. must cover rising equipment and bandwidth expenses because of its rapid growth, despite going years without attempting to generate revenue.
Tata Power whose core business is to generate, transmit and distribute electricity has made no money to investors in the last one decade. That is a big blunder considering it is one of the largest power generation companies in the country. One of the reasons is the company's huge debt levels which stood at ₹43,559 crore at the end of March 2021 compared to the company’s market capitalisation of ₹44,447 crore.
Библиотека собеса по Data Science | вопросы с собеседований from ru